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引入 迷 思 概念 的 关键 行动 编码 及 其 在 过 程 数 据 诊断 分 类 分 析 中 的 应 用 
AJS BI Ara 
(浙江 师范 大 学 心理 学 院 , 金华 321004) 


摘 要 迷 思 概念 是 指 基于 个 人 经 验 构建 的 对 一 些 对 象 、 事 件 或 观点 的 错误 理解 。 相 比 于 识别 问题 解决 
技能 的 缺失 ,额外 识别 迷 思 概念 有 助 于 进一步 明确 学 生出 现 错误 的 原因 。 关 键 行动 编码 是 将 传统 心理 测 
量 模型 迁移 应 用 至 分 析 行 动 序列 等 过 程 数 据 的 必要 手段 。 针 对 现 有 关键 行动 编码 无 法 精细 识别 导致 错误 
问题 解决 的 原因 的 局 限 , 本 研究 提出 一 种 引入 迷 思 概念 的 关键 行动 编码 方式 ， 以 实现 同时 考虑 问题 解决 
技能 和 迷 思 概念 对 问题 解决 过 程 的 影响 。 通 过 一 则 实证 研究 对 比 探究 不 引入 和 引入 迷 思 概念 的 两 种 关键 
行动 编码 在 过 程 数据 诊断 分 类 分 析 中 的 表现 ; 结果 主要 发 现 引 入 迷 思 概念 可 实现 对 被 试 的 更 精细 化 分 类 ， 
有 助 于 进一步 识别 导致 问题 解决 成 败 的 具体 原因 。 

关键 词 。” 认 知 诊断 ; 过 程 数据 ; 问题 解决 ; 迷 思 概念 ; 行动 序列 
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1 引言 

随 着 计算 机 软 硬 件 水 平 的 提高 ， 计 算 机 (网 络 ) 化 测评 逐渐 成 为 当前 心理 与 教育 测量 的 主要 形式 。 相 
比 于 传统 纸 笔 测 验 ,计算 机 化 测评 可 基于 日 志文 件 抓 取 被 试 解决 问题 时 的 结果 数据 (outcome data) 和 过 程 
数据 (process data)。 其 中 ， 结 果 数 据 是 指 被 试 完成 任务 后 得 到 的 可 反映 其 任务 解决 效果 的 总 结 性 数据 ， 
如 作答 精度 和 作答 时 间 !; 而 过 程 数据 是 指 带 有 时 间 埠 的 能 够 反映 被 试 解决 问题 过 程 的 人 际 (机 ) 交 互 数据 
(Hao et al., 2015; 李 美 娟 等 , 2020; 刘 红 云 等 , 2023; XEXE 等 , 2022)， 如 问题 解决 时 呈现 的 操作 历程 
(i.e.， 行动 序列 ) 或 对 话 文本 信息 。 分 析 过 程 数 据 有 助 于 了 解 被 试 的 问题 解决 过 程 、 探 究 被 试 的 问题 解决 
策略 ; 同时 , 也 使 得 研究 重点 从 探究 “结果 是 什么 ”转变 为 探究 “结果 是 如 何 产 生 的 ”(Greiff et al., 2016). 
当然 ， 如 附录 图 S1.1 所 示 ， 过 程 数 据 的 非 标准 化 结构 ?也 对 现 有 的 针对 有 标准 化 结构 的 数据 的 分 析 方 法 
提出 了 挑战 ， 如 项 目 反 应 理论 模型 、 诊 断 分 类 模型 (diagnostic classification model, DCM) 和 结构 方程 模型 
等 传统 心理 测量 模型 均 难 以 直接 用 于 分 析 过 程 数据 。 

根据 数据 分 析 逻 辑 ， 可 将 现 有 的 过 程 数据 分 析 方 法 归 为 两 类 : 数据 挖掘 法 和 统计 建 模 法 (Bergner & 
von Davier, 2019; Mislevy, 2019; XUEE 等 , 2022)。 前 者 是 数据 驱动 “ 自 下 而 上 ”的 探索 性 方法 ， 虽 在 
从 大 量 数据 中 通过 算法 来 揭示 有 意义 的 新 关系 、 新 趋势 和 新 模式 ， 主 要 包括 随机 森林 、 聚 类 分 析 、 支 持 
向 量 机 等 有 监督 或 无 监督 学 习 算 法 (e.g., Chen et al., 2023; Hao et al., 2016; He et al., 2021; Qiao & Jiao, 
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! 部 分 已 有 研究 将 题目 作答 时 间 归 入 过 程 数据 ， 但 实际 上 该 数据 类 型 是 在 被 试 完成 任务 后 才 获 取 的 总 结 性 数据 ;因此 ， 
将 其 归 入 结果 数据 比 将 其 归 入 过 程 数据 更 恰当 (Fu et al., 2023). 
? 标准 化 数据 结构 是 指数 据 具 有 NN X 7 的 矩阵 结构 ， 其 中 N 表示 被 试 总 数 ，7 表 示 题 目 总 数 ( 詹 沛 达 , 2022)。 
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2018; $h£& 55,2018); 而 后 者 是 理论 驱动 “ 自 上 而 下 ”的 验证 性 方法 ， 一 般 基 于 理论 假设 构建 有 关 问 
题解 决 中 认 知 过 程 的 函数 模型 , 主要 包括 隐 马 尔 可 夫 建 模 、 多 水 平 建 模 和 经 典 心理 测量 模型 的 迁移 应 用 
A (e.g. Fu et al., 2023; Li et al., 2023; Liu et al., 2018; Han et al., 2022; Xiao & Liu, 2023; Zhan & Qiao, 
2022; 付 颜 斌 55, 2023)。 相 较 于 数据 挖掘 法 而 言 ， 统 计 建 模 法 遵循 潜在 特质 决定 外 显 行为 的 心理 学 假 
We, 其 分 析 结 果 具 有 更 高 的 可 解释 性 , 能 更 明确 指出 被 试 在 解决 问题 过 程 中 存在 的 有 关 认 知 过 程 或 知识 
技能 上 的 不 足 。 

为 构建 潜在 特质 与 外 显 行为 之 间 的 联接 或 将 适用 于 标准 化 结构 数据 的 心理 测量 模型 迁移 应 用 于 过 
程 数据 分 析 ， 统 计 建 模 法 通常 需要 对 被 试 的 过 程 数 据 进行 关键 行动 (操作 ) 编 码 (key-action encoding)， 即 
判断 每 一 名 被 试 的 过 程 数 据 中 是 否 包含 解决 问题 所 必需 的 关键 行动 ， 并 进行 编码 (如 ，1 表示 “包含 ”， 
0 表示 “不 包含 ”)。 比 如 ，Liu 等 人 (2018) 和 李 美 娟 等 人 (2020) 对 被 试行 动 序列 进行 编码 时 ， 将 被 试 呈现 
正确 解决 问题 的 行动 和 未 呈现 错误 解决 问题 的 行动 均 编码 为 1， 其 他 编码 为 0。Zhan 和 Qiao (2022) 将 正 
确 解决 问题 的 关键 行动 序列 拆 解 为 包含 长 度 不 同 的 单一 行动 或 相 邻 行动 序列 的 虚拟 题目 (phantom item), 
当 被 试 呈现 的 行动 序列 包含 上 述 单 一 行动 或 相 邻 行动 序列 时 ， 其 在 虚拟 题目 上 的 作答 被 编码 为 1， 否则 
为 0。 目 前 关键 行动 编码 的 应 用 已 不 限于 过 程 数 据 分 析 ， 也 被 应 用 于 概念 图 等 表现 性 评价 分 析 之 中 (e.g.， 
Xia et al., 2023)。 纵 观 已 有 采用 关键 行动 编码 的 研究 可 发 现 它们 有 一 个 共同 局 限 ， 即 编码 时 仪 考虑 问题 
解决 能 力 与 技能 对 行动 的 影响 ， 忽 略 了 迷 思 概念 (misconception) 对 问题 解决 行动 的 影响 。 

迷 思 概念 是 指 基于 个 人 经 验 构 建 的 对 一 些 对 象 、 事 件 或 观点 的 错误 理解 (Martin et al., 2001)， 包 括 
非 科 学 信仰 、 先 入 为 主 的 理解 、 天 真理 论 或 概念 误解 等 。 且 被 试 一 旦 形成 迷 思 概念 就 很 难 被 改变 (Eggen 
& Kauchak, 2004)， 会 对 学 习 和 问题 解决 行为 产生 持续 性 影响 。 通 常 ， 在 问题 解决 中 ， 迷 思 概 念 会 导致 
错误 作答 行为 (e.g., Bradshaw & Templin, 2014; Kuo et al., 2016; Levy, 2019; Ma et al., 2024). 已 有 研究 指 
出 , 相 比 于 识别 被 试 缺失 的 正确 概念 与 技能 ， 额 外 识别 被 试 的 迷 思 概念 有 助 于 进一步 明确 学 生出 现 错误 
的 原因 ， 进 而 实施 有 针对 性 的 矫正 干预 (Kuo et al., 2016; Kuo et al., 2018)。 然 而 , 已 有 关于 迷 思 概念 的 测 
量 研究 大 多 局 限于 对 结果 数据 的 分 析 。Levy (2019) 将 迷 思 概念 引入 问题 解决 过 程 数 据 分 析 , 探究 了 迷 思 
概念 与 典型 行为 指标 的 对 应 关系 ; 但 实际 上 该 研究 并 未 深入 过 程 数 据 本 身 , 而 是 从 过 程 数据 中 提取 了 
些 学 生 解 决 问题 的 总 结 性 行为 表现 , 比如 , 解 题 方法 是 否 标 准 (“Standard Solution”* 和 “Incomplete Solution") 
以 及 是 否 出 现 某 种 错误 解 题 方法 (如 ,“Saw As One Unit” {Everything In Order””) 等 。 

综 上 , 本 研究 绅 在 提出 一 种 引入 迷 思 概念 的 关键 行动 编码 并 探究 其 在 过 程 数据 诊断 分 类 分 析 中 的 应 
用 ， 新 编码 方式 可 视 为 对 Zhan 和 Qiao (2022) 的 编码 方式 的 拓 广 。 
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2 方法 
2.1 问题 解决 任务 
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与 Han 等 人 (2022) 和 Zhan 和 Qiao (2022) 一 致 ， 本文 以 PISA 2012 计算 机 化 问题 解决 测验 TICKETS 
(CP038Q02) 为 例 阐 述 新 编码 方式 及 数据 分 析 过 程 。 该 任务 要 求 被 试 购买 两 趟 单程 的 全 价 乡 村 火车 票 
(“Buy a full fare, country train ticket with two individual trips”)， 完 成 任务 得 1 分 ， 反 之 得 0 分 。 该 题目 需 
要 被 试 相 继 在 图 1 所 示 的 页 面 中 进行 选择 (依次 为 (9) 一 (b) 一 (co) 一 (d), 即 先后 在 “交通 网 络 ”、“ 优 惠 类 型 ”、 
“车 票 类 型 以 及 “搭乘 次 数 ” 这 四 个 解 题 阶段 上 进行 选择 ， 需 要 注意 的 是 ，(D) 四 个 任务 界面 是 有 顺序 的 ， 
被 试 必须 从 头 做 到 尾 ， 在 点 击 “BUY”* 之 前 没有 退出 选项 ，(2) 在 点 击 “BUY” 之 前 ,无论 在 哪个 页 面 点 击 
“CANCEL”, 都 将 回 到 初始 界面 “交通 网 络 ”; (3) 只 有 在 “车 票 类 型 "环节 选择 “TINDIVIDUAL” 后 才 有 在 “ 搭 
乘 次 数 ” 环 节选 择 的 权利 ， 且 此 时 被 试 可 以 漏 选 搭乘 次 数 直 接点 击 “BUY” 结 束 作答 。 该 任务 中 ， 正 确 解 
决 问题 的 最 优 行动 序列 为 COUNTRY TRAINS 一 FULL FARE—INDIVIDUAL—2— BUY . 

如 附录 S1.1 所 示 ， 系 统 记录 了 每 一 个 学 生 在 解决 该 任务 时 每 一 个 阶段 的 选择 ， 根 据 “event_value” 
列 中 的 信息 ， 可 以 整理 出 每 一 个 学 生 的 行动 序列 。 当 被 试 呈 现 的 行动 序列 中 包含 最 优 行动 序列 时 ， 被 试 
将 会 正确 解决 该 任务 ; 反之 ， 当 被 试 呈 现 的 行动 序列 中 不 包含 或 部 分 包含 最 优 行动 序列 时 ， 被 试 会 错误 
解决 该 任务 。 因 此 ， 该 任务 的 原始 得 分 仅 能 将 被 试 分 为 两 类 : 正确 解答 组 和 未 正确 解答 组 ; 无 法 明确 指 
出 被 试 无 法 正确 解答 该 任务 的 原因 。 
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(0) 车 票 类 型 (d) 搭乘 次 数 
1. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 操 作 界 面 
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本 研究 的 被 试 选 自 美国 (USA)、 新 加 坡 (SGP)、 澳大利亚 (AUS) 和 土耳其 (TUR) 四 个 国家 的 37695 名 被 
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试 ; 删除 4 名 基本 信息 不 完善 (缺失 身份 ID 或 学 校 ID) 以 及 218 名 中 途 放 弃 ( 没 


剩余 有 效 被 试 3547 名 。 


2.3 引入 迷 思 概念 的 关键 行动 编码 
2.3.1 ”行动 序列 编码 
首先 ， 对 行动 序列 进行 
起 始 状态 、 中 间 状 态 和 目标 ; 
在 log-file 中 被 记录 为 “event” 列 
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的 “START ITEM", # 
所 以 目标 状态 为 "BUY”。 由 于 每 名 完成 作答 的 被 试 都 有 相同 的 
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“CANCEL” i [E 


起 始 状态 ; 


使 用 不 同 字 母 对 中 间 状 态 进行 绢 
2 中 ， 粗 实 线 连接 最 优 行动 序列 (ABCD) 中 的 正确 状态 转移 ， 
最 优 行动 序列 外 的 错误 状态 转移 ， 包 含 诸如 FG、GH 和 GC 等 。 由 于 该 人 


起 始 状态 和 目标 状态 , 无 法 提供 测量 信息 ， 


114, OA 2 所 示 。 


点 击 “BUY”) 的 被 试 后 ， 


人 码 。 我 们 将 被 试 的 所 有 行动 或 所 处 的 问题 状态 (problem state) 分 为 三 类 : 
Us. 首先 ， 起 始 状 态 为 未 进行 任何 操作 时 的 初始 状态 ( 即 任务 的 起 始 页 面 )， 
次 ， 由 于 被 试点 击 “BUY”* 后 便 会 结束 该 人 有 
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实 线 连接 
E 务 允许 在 任 一 阶段 通过 点 击 


因此 ， 被 试 所 呈现 的 行动 序列 会 同时 包含 正确 状态 转移 和 错误 状态 转移 。 


以 附录 图 S1.2(a) 中 被 试 为 例 ， 根 据 上 述 编码 规则 ， 可 将 该 被 试 的 问题 解决 行动 序列 表示 为 : FB 


“CANCEL”-—>A—B-— C—D 
选择 ， 所 以 可 以 删除 “CANCEL”( 附 录 医 
连续 重复 


pa 


Country trains 


Full fare Concession 
--B --G 
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人 码 的 情况 ; 参考 Zhan 和 Qiao (2022)， 我 们 将 类 似 引 
图 S1.2(c))。 最 终 ， 该 被 试 的 行动 序列 为 FBABCD， 同 时 包含 了 正确 


>D. #E-#4, HH “CANCEL” Sike 


S1.2(b))。 另 外 ， 由 于 被 试 可 以 重复 点 ; 


初始 状态 并 在 A 和 下 之 间 进 行 
i 某 按键 ， 会 出 现 多 个 


E 复 问题 状态 均 缩减 为 1 个 问题 状态 (附录 


Other trips 
--| 


图 2. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 的 问题 状态 编码 图 . 
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状态 转移 和 错误 状态 转移 。 


“Other trips” 代 表 被 试 在 “搭乘 次 数 ” 环 


节选 择 除 2 张 票 之 外 的 车 票数 选项 ， 即 0/1/3/4/5 张 票 的 统称 . 


3 除 特殊 强调 或 表达 需要 ， 本 文 省 


各 了 各 状态 转移 间 的 箭头 符号 
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本 研究 使 用 N-gram 特征 提取 ， 将 被 试 的 行动 序列 拆 解 为 不 同 长 度 的 字 节 片段 序列 (Zhan & Qiao, 
2022)。 表 1 呈现 了 该 任务 下 从 一 元 到 四 元 字 节 片段 序列 对 应 的 所 有 行动 序列 。 此 时 ， 可 以 将 被 试 所 呈 
现 的 任 一 行动 序列 视 为 表 1 中 不 同 元 字 节 片段 序列 的 组 合 。 比 如 ， 可 将 附录 图 S1.2 中 被 试 所 呈现 的 行 


动 序列 (FBABCD) 视 为 5 个 二 元 字 节 片段 序列 (FB、BA、AB、BC 和 CD) 的 或 2 个 二 元 字 节 片段 序列 (FB、 


BA) 和 1 个 四 元 字 节 片段 序列 (ABCD) 的 组 合 。 总 之 ， 经 过 N-gram 特征 提取 ,理论 上 可 建构 包含 所 有 可 


能 行动 序列 的 行动 序列 空间 (action sequence space)。 


表 1. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 中 N-gram 字 节 片段 序列 . 


N-gram 数量 字 节 片段 序列 

Uni-gram 8 A.B. C. DF.G.H.I 

Bi-gram 10 AB. AG. BC. BH. CI. CD. FB. FG. GC. GH 

Tri-gram 12 ABC. ABH, AGC, AGH, BCI, BCD, FBC. FBH, FGC, FGH, GCI, GCD 
Quad-gram 8 ABCI. ABCD, AGCI, AGCD, FBCI. FBCD, FGCI, FGCD 


TE: 粗 体 表 示 因 呈现 频率 小 于 5% 或 大 于 95% 而 在 后 续 分 析 中 被 删除 的 序列 . 
2.3.2 Q 矩阵 构建 

Q 矩阵 (Tasuoka, 1983) 是 诊断 分 类 分 析 的 必要 元 素 。 在 DCM 中 ，Q 矩阵 描述 潜在 属性 和 题目 之 间 
的 对 应 关系 ， 其 元 素 wx = 1 表示 题目 1G=1,2,..., DEE T BER (K=1,2,..,K), RŽ, qu-^0. BY 
Zhan 和 Qiao (2022) 的 设 定 ， 将 行动 序列 空间 中 各 字 节 片段 视 为 虚拟 题目 ， 在 将 呈现 正确 状态 转移 所 需 
的 问题 解决 技能 视 为 潜在 属性 的 同时 还 将 呈现 错误 状态 转移 所 需 的 迷 思 概念 也 视 为 潜在 属性 ; 进而 , 假 
设 仅 当 被 试 掌握 了 各 行动 序列 所 需 的 潜在 属性 后 才能 呈现 该 行动 序列 。 此 时 ，gqx= 1 表示 呈现 行动 序列 
i 需要 被 试 掌握 潜在 属性 kK， 反 之 ，gx= 0。 

(1) 潜在 属性 界定 ”鉴于 TICKETS (CP038Q02) 任 务 具有 清晰 的 问题 状态 转移 结构 ， 根 据 该 问题 解 
决 任务 的 题目 要 求 、 评 分 规则 和 目标 认 知 过 程 (探索 与 理解 (exploring and understanding) ) (OECD, 2014), 
可 总 结 出 被 试 需要 理解 4 个 解 题 需求 才能 正确 解答 该 任务 ( 即 呈 现 最 优 行动 序列 ABCD)， 分 别 是 (al) 理 
解 需 要 购买 郊区 火车 票 ，(a2) 理 解 需要 购买 全 价 票 ，(a3) 理 解 需要 购买 次 票 ，(a4) 理 解 需要 购买 2 张 票 。 
同时 , 被 试 可 能 因为 具有 一 些 迷 思 概念 而 导致 其 呈现 出 最 优 行动 序列 外 的 其 他 行动 序列 ， 包括 (ml) 不 理 
解 需要 购买 郊区 火车 票 ， (m2) 不 理解 需要 购买 全 价 票 ; (m3) 不 理解 需要 购买 次 票 ，(m4) 不 理解 需要 购买 
2 张 票 。 表 2 列 出 了 4 个 问题 解决 技能 和 4 个 迷 思 概念 。 

(2) 虚拟 题目 扩展 ”首先 , 遵循 Zhan 和 Qiao (2022) 的 做 法 , 将 表 1 中 所 有 N-gram 字 节 片段 对 应 的 
行动 序列 视 为 初 选 虚拟 题目 。 其 次 ， 根 据 被 试 作答 各 初 选 虚拟 题目 的 人 数 ， 删 除 作答 人 数 少 于 总 人 数 
5% 和 大 于 总 人 数 95% 的 ( 即 无 法 为 大 多 数 被 试 提供 信息 ) 的 虚拟 题目 ( 表 1 中 粗 体 示意 的 行动 序列 ;所 有 
行动 序列 的 频次 图 见 附录 图 S2.1). 然后 , 考虑 到 Q 矩阵 完备 性 和 模型 可 识别 性 的 要 求 ( 丁 树 良 等 , 2010; 
Gu & Xu, 2020)，Q 矩阵 至 少 保留 一 个 可 达 和 矩阵 。 最 终 ， 形 成 包含 28 题 和 8 个 属性 的 Q 矩阵 ， 如 表 3 


L 
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所 示 。 

2.3.3 ”虚拟 题目 作答 数据 编码 
针对 28 道 虚 拟 题目 ， 当 被 试 的 行动 序列 包含 特定 虚拟 题目 所 对 应 的 行动 序列 时 ， 则 该 被 试 “正确 作 

答 ” 该 题目 ， 反 之 ， 当 被 试 的 行动 序列 没 包含 特定 虚拟 题目 所 对 应 的 行动 序列 时 ， 则 该 被 试 “错误 作答 ” 

该 题目 。 以 附录 图 S1.2 中 被 试 所 呈现 的 行动 序列 (FBABCD) 为 例 ， 他 /她 的 作答 数据 向 量 可 被 编码 为 

(1111100010100110001000100001)' . 


表 2. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 的 潜在 属性 及 其 对 应 的 典型 行动 序列 . 
潜在 属性 属性 含义 
al 理解 需要 购买 郊区 火车 票 
— Tm a2 理解 需要 购买 全 价 票 
问题 解决 技能 dd fe SW Sc cas 
a4 理解 需要 购买 2 张 票 
ml 要 购买 郊区 火车 票 
迷 思 概念 m2 不 理 解 需 要 购买 全 价 时 
m3 不 理解 需要 购买 次 票 
m4 不 理解 需要 购买 2 张 票 
表 3. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 的 Q ERE. 
题 号 题 问题 解决 技能 迷 思 概念 
al a2 a3 a4 ml m2 m3 m4 
1 A 1 0 0000 0 0 
2 B 0 1 0 0 0 0 0 0 
3 [o 0 0 1 0 0 0 0 0 
4 D 0 0 0 1 0 0 0 0 
5 F 0 0 0 0 1 0 0 0 
6 G 0 0 0 0 0 1 0 0 
7 H 0 0 0 0 0 0 1 0 
8 I 0 0 0 0 0 0 0 1 
9 AB 1 1 0 0 0 0 0 0 
10 AG 1 0 0 0 0 1 0 0 
11 BC 0 1 1 0 0 0 0 0 
12 BH 0 1 0 0 0 0 1 0 
13 CI 0 0 1 0 0 0 0 1| 
14 CD 0 0 1 1 0 0 0 0 
15 FB 0 1 0 0 1 0 0 0 
16 FG 0 0 0 0 1 1 0 0 
17 GC 0 0 1 0 0 1 0 0 
18 GH 0 0 0 0 0 1 1 0 
19 ABC 1 1 1 0 0 0 0 0 
20 ABH 1 1 0 00 0 1 0 
21 AGC 1 0 1 0 0 1 0 0 
22 BCI 0 1 1 0 0 0 0 1| 
23 BCD 0 1 1 1 0 0 0 0 
24 FBC 0 1 1 0 1 0 0 0 
25 FBH 0 1 0 0 1 0 1 0 
26 FGC 0 0 1 0 1 1 0 0 
27 FGH 0 0 0 0 1 1 1 0 
28 ABCD 1 1 1 1 0 0 0 0 
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2.4 分 析 


本 研究 提出 的 行动 月 
中 的 GDINA 包 (Ma & de la Torre, 2020) 等 ， 一 定 程 度 上 减少 了 方法 的 实践 应 用 难 
包 进 行 诊断 分 类 分 析 ， 有 具体 的 使 用 教程 可 参阅 GDINA 包 使 用 手册 或 Shi 等 人 (2021) 的 教程 。 


列 编码 也 可 以 直接 利用 已 有 的 DCM 参数 估计 软件 进行 数据 分 析 , 比如 R 软件 


E 度 。 本 文选 用 GDINA 


由 于 不 确定 8 个 属性 对 行动 序列 的 影响 机 理 ,我 们 同时 使 用 GDINA (de la Torre, 2011)、DINA (Junker 
& Sijtsma, 2001)、DINO (Templin & Henson, 2006) 和 ACDM (de la Torre, 2011) 进 行 数据 分 析 ， 然 后 根据 
模型 -数据 拟 合 指 标 选取 最 合适 的 模型 并 解读 其 结果 。 其 中 ，DINA 模型 假设 属 
则 ， 即 被 试 必须 掌握 题目 所 要 求 的 所 有 属性 ， 其 理想 正确 作答 概率 才 为 1; DINO 模型 假设 属性 之 间 满 


[t 


足 分 离 缩合 规则 ， 即 被 试 只 要 掌握 题目 所 要 求 的 任 一 属性 ， 其 理想 正确 作答 概率 就 为 1 ACDM 假设 属 


性 之 间 满 足 连接 缩合 规 


性 之 间 满 足 补偿 缩合 规则 ， 被 试 的 理想 正确 作答 概率 随 掌握 的 属性 的 数量 的 增加 而 增加 ，GDINA 是 一 
个 饱和 模型 ， 不 局 限于 特定 的 缩合 规则 ， 有 共有 理论 上 的 普 适 性 。 


模型 -数据 相对 拟 合 指标 选 
SABIC (Sclove, 1987)， 指 标 值 相对 越 小 表示 模型 对 数据 的 拟 合 相 对 
GDINA 与 各 约束 模型 之 间 对 数据 的 拟 合 是 否 有 显著 差异 。 模 型 -数据 绝对 拟 合 指标 选用 SRMSR 
(Maydeu-Olivares, 2013)*, Hu 和 Bentler (1999) 指 出 SRMSR 值 小 于 0.10 表示 模型 拟 合 数据 。 另 外 ， 使 
区 分 度 指标 (DD 来 评估 题目 质量 ， 使 用 分 类 精度 指标 (Wang et al., 2015) 来 计算 分 类 信 度 。 

E 关 键 行动 编码 中 引入 迷 思 概念 的 相对 优势 ， 本 研究 还 参考 Zhan 和 Qiao (2022) 中 不 
思 概 念 的 关键 行动 编码 方式 对 该 数据 进行 了 编码 。 该 数据 包含 4 个 问题 解决 技能 (al~a4) 和 10 道 
题目 ， 相 应 的 N-gram 字 节 片段 序列 和 Q ERE ULB Se S3 。 


虚拟 


用 题目 
另外 ， 为 探究 


3 结果 

表 4 呈现 了 两 种 编码 方式 下 4 个 模型 对 数据 的 绝对 和 相对 拟 合 结果 。 首先 ,由 于 两 种 编码 方式 得 到 
的 数据 不 同 ， 在 模型 -数据 拟 合 指标 上 两 者 没有 可 对 比 性 。 其 次 ， 针 对 引入 迷 思 
数据 而 言 , 仅 有 GDINA 模型 拟 合 该 数据 , A AIC 和 SABIC 倾向 于 选择 GDINA 模型 ; 尽管 BIC 和 CAIC 


倾向 于 选择 DINA 模型 ， 


后 续 分 析 使 用 GDINA 模 
模型 不 拟 合 数据 ;另外 ,尽管 所 有 相对 拟 合 指标 均 倾 向 于 选择 DINA 模型 , 但 鉴 


型 没 
型 。 


we Ar AA Dil 


] AIC (Akaike, 1981). BIC (Schwarz, 1978). CAIC (Bozdogan, 1987) 和 
BU. 55. EHF A ie SF fh 


E DINA 模型 不 拟 合 该 数据 且 与 饱和 模型 有 显著 差异 。 


概念 的 编码 方式 获得 的 


因此 ， 该 编码 方式 下 的 


de 5 呈现 了 两 种 编码 方式 下 的 分 类 信 度 。 整 体 而 言 , 无 论 是 属性 水 平 还 是 测 


4 XR 


25 HH 


于 模型 参数 过 多 ，GDINA 包 无 法 计算 RMSEA: 指标 ; 这 在 GDINA 包 使 用 指导 上 


型 。 再 次 ， 针 对 仅 包 含 问题 解决 技能 的 编码 方式 获得 的 数据 而 言 ， 仅 有 DINO 


于 DINA 模型 与 饱和 模 


E 与 引入 迷 思 概念 的 编码 方式 可 比 ， 该 编码 方式 下 的 后 续 分 析 也 使 用 GDINA 模 


验 整 体 水 平 的 分 类 信 度 
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HF TE (Shi et al., 2021). 
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都 较 高 , 分 析 结 果 可 靠 。 相对 而 言 , 额外 引入 迷 思 概念 不 仅 没 有 降低 分 类 信和 度 , 还 使 分 类 信 度 略 有 提高 。 
Ed 2 呈现 了 引入 迷 思 概念 的 编码 方式 下 的 虚拟 题目 参数 估计 值 (具体 估计 结果 详 见 附录 表 S2.1)。 整 
体 而 言 ， 除 虚拟 题目 AG、GC、ABH、AGC 和 FBC 外 ， 其 他 虚拟 题目 都 具有 较 高 的 题目 质量 。 影 响 这 
5 道 题目 质量 的 主要 原因 是 它们 的 失误 参数 较 高 。 结 合 图 2 和 表 3 可 发 现 ， 要 呈现 这 5 道 虚 拟 题 目 所 对 
应 的 行动 序列 ， 需 要 同时 掌握 问题 解决 技能 和 迷 思 概念 ， 且 在 最 优 行动 序列 所 含 问题 状态 (e.g.,A、B 和 
C) 和 非 最 优 行动 序列 所 含 问题 状态 (e.g., F、G 和 二 之 间 进 行 转换 。 因 此 ， 这 5 道 虚拟 题目 的 失误 参数 
估计 值 较 高 意味 着 即便 被 试 同 时 掌握 题目 所 需 的 问题 解决 技能 和 迷 思 概念 , 也 有 较 高 概率 不 呈现 这 种 跨 
最 优 - 非 最 优 问题 状态 的 转移 。 另 外 ， 仅 包含 问题 解决 技能 的 关键 行动 编码 方式 下 的 虚拟 题目 参数 估计 
值 见 附录 表 S2.2. 


= 
= 


oo 


表 4. 模型 -数据 拟 合 结果 . 
编码 方式 。 模型 ” 参数 数量 SRMSR -2LL AIC BIC CAIC SABIC Adf p-value 
atm GDINA 399 0.0756 27724.68 28522.69 30986.06 31385.06 2971824 
DINA 311 0.1006 27901.90 28523.91 30443.98 30754.98 29455.78 88 <0.001 
DINO 311 0.2483 58379.36 59001.36 60921.43 61232.43 5993323 88 <0.001 
ACDM 342 0.1554 40126.82 40810.83 42922.29 43264.29 41835.59 57 <0.001 
a GDINA 67 0.0046 12753.24 12887.24 13300.88 13367.88 13087.99 
DINA 35 0.0243 12786.02 12856.02 13072.10 13107.10 12960.89 32 0.43 
DINO 35 0.1316 18773.68 18843.67 19059.76 19094.76 18948.55 32 <0.001 
ACDM 45 0.0498 14918.08 15008.08 15285.90 15330.90 15142.91 22 <0.001 


注 :a+m= 包含 问题 解决 技能 和 迷 思 概念 的 关键 行动 编码 ; = 仅 包 含 问题 解决 技能 的 关键 行动 编码 . 


X $. 基于 GDINA 模型 的 分 类 信 度 结果 . 


编码 方式 al a2 a3 a4 ml m2 m3 m4 测验 水 平 
atm 0.9992 0.9998 0.9999 0.9998 0.9987 1.0000 1.0000 — 1.0000 0.9977 
a 0.9936 0.9965 0.9938 0.9999 0.9858 


注 :a+m= 包含 问题 解决 技能 和 迷 思 概念 的 关键 行动 编码 ; = 仅 包 含 问题 解决 技能 的 关键 行动 编码 . 


Em Ail 
ES 失误 
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Xxx PA Pee ery 
题目 


图 2. 基于 GDINA 模型 的 虚拟 题目 参数 估计 结果 (已 转换 为 猜测 和 失误 参数 ). TE: 区 分 度 = 1- 猜 测 -失误 . 


图 3 呈现 了 引入 迷 思 概念 的 编码 方式 下 各 属性 之 间 以 及 各 属性 与 原始 得 分 之 间 的 多 分 格 相 关 
(polychoric correlation) 和 矩阵 ( 仅 包 含 问 题解 决 技能 的 编码 方式 的 相关 结果 见 附录 图 S2.2)。 首先, 4 个 问题 
解决 技能 之 间 呈 中 到 高 程度 的 正 相 关 ， 且 它们 与 原始 得 分 之 间 成 高 程度 正 相 关 。 其 次 ， 除 m4 和 m3 之 
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间 成 低 程度 负 相 关外 ，4 个 迷 思 概念 之 间 也 呈 中 到 高 程度 正 相 关 ， 且 它们 与 原始 得 分 之 间 成 中 到 高 程度 
负 相关 。 再 次 ， 除 m4 和 a3 之 间 成 低 程度 正 相 关外 ， 问 题解 决 技能 与 迷 思 概念 之 间 多 为 中 到 高 程度 负 
相关 。 上 述 三 组 相关 关系 中 ，m4 和 m3 以 及 m4 和 a3 之 间 的 相关 系数 正 负 略 显 特殊 ; 结合 图 2 和 表 3， 
JRVE a3. m3 和 m4 分 别 对 应 着 “Individual”*"、“Daily” 和 “Other trips". m4 和 m3 之 间 负 相关 表明 被 试 在 
解决 问题 过 程 中 并 不 倾向 于 同时 呈现 “Daily” 和 “Other trips” 这 两 个 操作 。 在 该 任务 中 ，“Other trips” 处 于 
正确 路 径 (i.e.， 最 优 行动 序列 ) 上 ， 而 “Daily” 处 于 错误 路 径 (i.e.， 非 最 优 行动 序列 ) 上 ; 被 试 只 能 通过 
“CANCEL”" 返 回 起 始 状态 并 做 一 系列 操作 后 才能 同时 呈现 这 两 个 操作 。 付 颜 斌 等 2023) 和 Han et al. 
(2022) 的 研究 均 发 现 ， 当 被 试 已 经 处 于 正确 或 错误 路 径 上 的 问题 状态 时 ， 其 更 倾向 于 维持 在 该 正确 或 错 
误 路 径 上 直到 完成 作答 。 另 外 ，m4 和 a3 之 间 的 正 相 关 表 明 被 试 在 解决 问题 过 程 中 倾向 于 同时 呈现 
“Individual” “Other trips”; 这 是 因为 “Other trips” 是 “Individual”* 的 下 位 操作 。 


> 
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图 3. 属性 之 间 以 及 属性 与 原始 得 分 之 间 的 相关 (引入 迷 思 概念 的 关键 行动 编码 方式 ). 


表 6 呈现 了 引入 迷 思 概念 的 编码 方式 下 被 归 入 各 潜在 属性 模式 的 被 试 量 及 其 原始 作答 结果 得 分 。 在 
原始 作答 结果 得 1 分 的 被 试 中 ， 出 现 频率 最 高 的 潜在 属性 模式 为 (11110000); 而 在 原始 作答 结果 得 0 分 
的 被 试 中 ， 出 现 频 率 最 高 的 两 个 潜在 属性 模式 为 (01001010) 和 (00001110)。 上 述 结果 符合 本 研究 逻辑 ， 
掌握 所 有 问题 解决 技能 且 不 受 迷 思 概 念 影响 的 被 试 , 理论 上 可 呈现 最 优 行动 序列 并 获得 1 分 ; 而 没有 
握 所 有 问题 解决 技能 且 受 迷 思 概 念 影响 的 被 试 , 理论 上 难以 呈现 最 优 行动 序列 , 进而 有 更 大 的 可 能 性 
得 0 分 。 另 外 ， 聚 焦 于 原始 作答 结果 得 1 分 的 被 试 ， 可 发 现 一些 被 试 在 掌握 4 个 问题 解决 技能 的 同时 
也 掌握 了 个 别 迷 思 概 念 。 比 如 ， 对 于 属性 模式 为 (11110100) 的 被 试 ， 回 顾 其 问题 解决 行动 序列 可 发 现 该 
类 被 试 在 优惠 类 型 选择 环节 (图 1(b)) 会 在 全 价 票 和 打折 票 之 间 反 复 操作 、 犹 了 豫 不 决 。 图 4 进一步 呈现 了 


ym 


性 


ex 
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两 种 编码 方式 下 被 试 诊 断 分 类 结果 的 对 应 关系 (各 模式 下 具体 人 数 见 附录 表 S2.3)。 结果 表明 额外 引入 迷 
思 概 念 可 进一步 实现 对 被 试 的 精细 化 分 类 ， 更 有 益 于 探查 导致 其 问题 解决 成 败 的 具体 原因 。 


表 6. 不 同 作 答 结 果 包 含 的 潜在 属性 模式 (引入 迷 思 概念 的 关键 行动 编码 方式 ). 


作答 结果 得 分 潜在 属性 模式 被 试 量 
0 01001010 269 
0 00001110 227 
0 11000010 158 
0 10000110 78 
0 11100000 77 
0 01111000 63 
0 00101101 61 
0 10110100 61 
0 01101001 50 
0 11100001 45 
0 00101100 40 
0 01101000 32 
0 11000110 26 
0 10100101 24 
0 00111100 23 
0 10100100 22 
0 11001010 16 
0 01001110 13 
1 11110000 1681 
1 11110100 78 
1 11110110 74 
1 11111000 63 
1 11111010 56 
1 11110010 43 
1 11100001 40 
1 11111100 16 
1 11111101 13 
1 11111110 12 

Hes 仅 包含 被 试 量 > 10 的 潜在 属性 模式 . 
| 8" B NN 


| 
lil Il 
e090 o oooooooooo0ocoo Pree EERE BEB RER REE EER BE BP Hee eee H a 
SCSOrF e FROFFEE ESO ORF oeegosesele ert 
BEES HH EEEEEEEEHT | CEEEEFEEER- ES EE EE dS 
peee O BERBROOO ORB BHO I ERE ERE EA EA í|moor-ecooo0 OHRrOrOErEOM 
1d e HISSGHMHES diii SIMI IERI 
oroo O +O0SCOHO BH OOO BE OROEERS HOOOOHHO O BBE EERO O 
ii æA LEE A Á IIIN OATI 
图 4. 两 种 诊断 分 类 结果 对 应 图 . 
TE: 4 属性 模式 为 仅 包含 问题 解决 技能 的 编码 方式 下 的 诊断 分 类 结果 ，8 属性 模式 为 同时 包含 问题 解决 技能 和 迷 思 概念 的 编码 方式 下 的 诊断 分 类 


ZUR; 连接 线 粗 细 表 示 被 试 量 . 
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4 总 结 与 讨论 


与 传统 作答 精度 等 结果 数据 相 比 ， 行 动 序列 等 过 程 数 据 能 提供 更 多 有 关 被 试 如 何 解决 问题 的 信息 。 


但 行动 序列 的 非 标 准 化 格式 也 导致 传统 心理 测量 学 模型 无 法 被 直接 应 用 。 目 前, 关键 行动 编码 是 将 传统 
心理 测量 模型 迁移 应 用 至 分 析 行动 序列 等 过 程 数 据 的 必要 手段 。 为 利用 过 程 数据 实现 对 问题 解决 技能 的 


诊断 分 析 ，Zhan 和 Qiao (2022) 通 过 将 问题 解决 技能 与 关键 行动 序列 相 链接 ， 提 出 了 基于 虚拟 题目 拓展 


的 关键 行动 编码 。 然 而 ， 该 编码 方式 忽略 了 迷 思 概念 对 问题 解决 过 程 的 影响 。 对 此 ， 本 研究 提出 一 种 引 


入 迷 思 概念 的 关键 行动 编码 方式 , 同时 考虑 了 问题 解决 技能 和 迷 思 概念 对 问题 解决 过 程 的 影响 。 使 用 一 


道 来 自 PISA 2012 的 问题 解决 任务 ， 


对 比 探究 了 不 额外 引入 迷 思 概念 的 和 额外 引入 迷 思 概念 的 关键 行为 


编码 方式 的 实践 表现 。 研 究 主 要 发 现 ,同时 考虑 问题 解决 技能 和 迷 思 概念 可 实现 对 被 试 群体 的 更 精细 化 
分 类 ,更 有 助 于 识别 导致 问题 解决 成 败 的 具体 原因 ， 为 个 性 化 辅助 教学 提供 更 具 针 对 性 的 补救 建议 。 另 
外 ， 还 发 现 (1) 额 外 引入 迷 思 概念 会 略微 提高 诊断 分 类 信和 度 ; (2) 被 试 对 迷 思 概念 的 掌握 程度 与 原始 作答 


结果 得 分 之 间 旺 中 到 高 程度 负 相 关 。 


ADHI 
FH 


， 尽 管 本 研究 在 解构 行动 序列 时 引入 了 迷 思 概念 ， 


晶 在 分 析 中 仍 使 用 了 常规 DCM 而 


需 是 { 
非 包 含 迷 思 概 念 的 DCM (e.g., Kuo et al., 2018; Ma et al., 2024)。 其 原因 在 于 ， 本 研究 中 洪 在 属性 ( 迷 思 概 
念 和 问题 解决 技能 ) 对 外 显 行为 (错误 状态 转移 和 正确 状态 转移 ) 的 影响 机 理 是 一 致 的 (i.e., 假设 掌握 迷 思 
概念 导致 错误 状态 转移 与 假设 掌握 问题 解决 技能 导致 正确 状态 转移 的 逻辑 是 一 致 的 ), 符合 常规 DCM 的 
理论 假设 ;而 现 有 包含 迷 思 概念 的 DCM 中 问题 解决 技能 和 迷 思 概念 对 外 显 行为 的 影响 机 理 是 不 一 致 的 。 
当然 ， 由 于 能 力 和 精力 有 限 ， 本 研究 仍 有 一 些 局 限 有 待 未 来 做 进一步 研究 。 第 一 ， 与 Zhan 和 Qiao 


(2022) 等 大 多 数 行动 序列 分 析 方法 下 


究 类 似 ， 新 编码 方式 仅 考虑 的 行动 序列 本 身 所 提供 的 信息 ， 忽 略 了 


行动 序列 对 应 的 行动 时 间 (action time) 中 所 包含 的 信息 (e.g., Fu et al., 2023); 未 来 可 尝试 把 行动 时 间 视 为 


虚拟 题目 作答 时 间 ， 并 引入 题目 作答 时 间 模 型 或 联合 模型 (e.g., van der Linden, 2007; Zhan et al., 2018) 进 


行 分 析 。 第 二 ， 与 绝 大 多 数 行动 序列 分 析 方 法 研究 一 样 ， 本 研究 仅 聚 焦 于 一 道 问题 解决 题目 ， 理 论 上 ， 


只 要 多 道 问 题解 决 题目 测量 相同 的 届 


性 , 新 编码 方式 也 适用 于 一 次 性 解构 多 道 题目 的 行动 序列 并 进行 诊 


断 分 类 分 析 。 第 三 , 本 研究 聚焦 于 任务 目标 明确 且 已 知 信息 完备 的 结构 良好 (well-defined) 问 题解 决 任务 ; 
这 类 任务 通常 拥有 相对 明确 且 数量 有 限 的 问题 状态 (.e.， 有 明确 的 状态 转移 规则 )。 然 而 ， 现 实 中 还 有 很 
多 具有 不 良 结构 的 问题 解决 任务 , 缺乏 明确 的 状态 转移 规则 ; 如 何 对 这 类 任务 实施 关键 行动 编码 仍 是 


个 有 等 解决 的 问题 。 第 四 ， 本 研究 编码 过 程 中 将 多 次 重复 行动 (e.g., 重复 点 击 某 一 个 按钮 ) 压 缩 为 一 次 重 


映 被 试 因 属 性 掌握 熟练 度 不 够 或 认 知 风格 导致 的 犹 卫 不 决 的 潜在 测 


复 行动 , 忽略 了 重复 行动 中 有 可 能 反 
Ez 


总 之 ,本 研究 提出 了 一 种 引入 迷 


E. 未 来 研究 可 尝试 探究 如 何 更 好 地 利用 这 些 信 息 ， 实 现 对 个 体 问 题解 决 素养 更 全 面 的 理解 。 


思 概 念 的 关键 行动 编码 方式 并 探究 了 其 在 过 程 数据 诊断 分 类 分 析 


的 应 用 。 新 编码 方式 的 提出 有 助 于 而 


究 者 进一步 识别 影响 被 试问 题解 决 成 败 的 具体 原因 , 对 实施 有 针对 
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性 干预 提供 方法 学 支持 : 为 提高 被 试 的 问题 解决 表现 ， 除 尝试 提高 其 问题 解决 技能 外 ， 还 可 考虑 消除 迷 
思 概 念 的 负面 影响 。 


参考 文献 

Akaike, H. (1981). Likelihood of a model and information criteria. Journal of Econometrics, 16(1), 3—14. 
https://doi.org/10.1016/0304-4076(81)90071-3 

Bergner, Y., & von Davier, A. A. (2019). Process Data in NAEP: Past, Present, and Future. Journal of 
Educational and Behavioral Statistics, 44(6), 706—732. 

Bozdogan, H. (1987). Model selection and Akaike's Information Criterion (AIC): The general theory and its 
analytical extensions. Psychometrika, 52(3), 345—370.https://doi.org/10.1007/BF02294361 

Bradshaw, L., & Templin, J. (2014). Combining item response theory and diagnostic classification models: A 
psychometric model for scaling ability and diagnosing misconceptions. Psychometrika, 79(3), 403—425. 
https://doi.org/10.1007/s11336-013-9350-4 

Chen, F., Lu, C., & Cui, Y. (2023). Using learners’ problem-solving processes in computer-based assessments 
for enhanced learner modeling: A deep learning approach. Education and Information Technologies. 
https://doi.org/10.1007/s10639-023-12389-x 

de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(2), 179-199. 
https://doi.org/10.1007/s11336-011-9207-7 

Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing 
cognitively diagnostic testing. Journal of Jiangxi Normal University (National Sciences Education), 
34(5), 490—494. https://doi.org/10.16357/j.cnki.issn1000-5862.2010.05.023 

[IE BOB, TEX X. (2010). AIA FE RE CEVA AU Br 35 Si tb] PEE. AIEK APR AL 
SELF), 34(05), 490-494. ] 

Eggen, P., & Kauchak, D. (2004) Educational psychology: Windows, classrooms. Upper Saddle River: 
Pearson Prentice Hall. 

Fu Y., Chen Q., & Zhan P. (2023). Binary modeling of action sequences in problem-solving tasks: One- and 
two-parameter action sequence model. Acta Psychologica Sinica, 55(8), 1383—1404. 
https://doi.org/10.3724/SP.J.1041.2023.01383 

TERR, ERIS, fS034.(2023).H BUR UC EESS TP 4T SbF SE — a ER: FPS BUT Bh FF A D 
4K, 55(08), 1383—1404.] 

Fu, Y., Zhan, P., Chen, Q., & Jiao, H. (2023). Joint modeling of action sequences and action time in 
computer-based interactive tasks. Behavior Research Methods. 
https://doi.org/10.3758/s13428-023-02178-2 

Greiff, S., Niepel, C., Scherer, R., & Martin, R. (2016). Understanding students’ performance in a 
computer-based assessment of complex problem solving: An analysis of behavioral data from 
computer-generated log files. Computers in Human Behavior, 61, 36—46. 
https://doi.org/10.1016/j.chb.2016.02.095 

Gu, Y., & Xu, G. (2020). Partial identifiability of restricted latent class models. The Annals of Statistics, 48(4), 
2082-2107. https://www.jstor.org/stable/2693 1550 

Han, Y., Liu, H., & Ji, F. (2022). A Sequential Response Model for Analyzing Process Data on 
Technology-Based Problem-Solving Tasks. Multivariate Behavioral Research, 57(6), 960—977. 
https://doi.org/10.1080/00273171.2021.1932403 

Hao, J., & Shu, Z. (2015). Analyzing process data from game/scenario- based tasks: An edit distance approach. 
Journal of Educational Data Mining, 7(1), 33—50. 

Hao, J., Smith, L., Mislevy, R., Von Davier, A., & Bauer, M. (2016). Taming log files from 
game/simulation-based assessments: Data models and data analysis tools. ETS Research Report Series, 
2016(1), 1-17. https://doi.org/10.1002/ets2.12096 

He, Q., Borgonovi, F., & Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving 
skills: Using sequence mining to identify behavioral patterns across digital tasks. Computers & 
Education, 166, 104170. https://doi.org/10.1016/j.compedu.2021.104170 


ChinaXiv 预 印 本 


Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional 
criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1—55. 
https://doi.org/10.1080/10705519909540118 

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections 
with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258—272. 
https://doi.org/10.1177/01466210122032064 

Kuo, B.-C., Chen, C.-H., & De La Torre, J. (2018). A cognitive diagnosis model for identifying coexisting 
skills and misconceptions. Applied Psychological Measurement, 42(3), 179—191. 
https://doi.org/10.1177/0146621617722791 

Kuo, B.-C., Chen, C.-H., Yang, C.-W., & Mok, M. M. C. (2016). Cognitive diagnostic models for tests with 
multiple-choice and constructed-response items. Educational Psychology, 36(6), 1115-1133. 
https://doi.org/10.1080/01443410.2016.1166176 

Levy, R. (2019). Dynamic Bayesian network modeling of game-based diagnostic assessments. Multivariate 
Behavioral Research, 54(6), 771—794. https://doi.org/10.1080/00273171.2019.1590794 

Li, M., Liu, H., Cai, M., & Yuan, J. (2023). Estimation of individuals’ collaborative problem solving ability in 
computerbased assessment. Education and Information Technologies, 29, 483—515. 
https://doi.org/10.1007/s10639-023-12271-w 

Li, M., Liu, Y.,& Liu H.(2020). Analyzing problem-solving strategies in computer-adaptive testing: An 
expansion and application of multi-level hybrid IRT models. Acta Psychologica Sinica, 52(4), 528—540. 
https://doi.org/10.3724/SP.J.1041.2020.00528 

[ 李 美 娟 ， 刘表, 刘 红 云 (2020). 计算 机 动态 测验 中 间 题 解决 过 程 策略 的 分 析 : 多 水 平 混合 RT 模型 的 拓 
展 与 应 用 .心静 党 帮 52(4), 528-540.] 

Liu, H., Han, Y., Xiao, Y., Yuan, J., & Li, M. (2023). Evaluation and development of process-oriented 
measurement models for complex problem-solving skills. China Examinations, 11, 9—20. 
https://doi.org/10.19360/j.cnki.11-3303/g4.2023.11.002. 

[ 刘 红 云 ， 韩 雨 婷 ， 肖 悦 ， 袁 建 林 ， 李 美 娟 . (2023). 复杂 问题 解决 能 力 的 过 程 性 测评 与 测量 模型 发 展 . Pd 
Fix 11, 9-20.] 

Liu, H., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: 
Application of the modified multilevel mixture IRT model. Frontiers in Psychology, 9, 1372. 
https://doi.org/10.3389/fpsyg.2018.01372 

Liu, Y., Xu, H., Chen, Q., & Zhan, P. (2022). The measurement of problem-solving competence using process 
data. Advances in Psychological Science, 30(3), 522—535. https://doi.org/10.3724/SP.J.1042.2022.00522 

KINE, PRA A, REGIS, ENA. (2022). SEP OE RHE AY TA MRR BE 7J 31 Bt BE TE. DERI 
LUE, 30(3), 522-538.] 

Ma, W., Sorrel, M. A., Zhai, X., & Ge, Y. (2024). A dual-purpose model for binary data: Estimating ability 

and misconceptions. Journal of Educational Measurement. Advance online publication. 

https://doi.org/10.1111/jedm. 12383 

Ma, W., & de la Torre, J. (2020). GDINA: An R package for cognitive diagnosis modeling. Journal of 

Statistical Software, 93(14). https://doi.org/10.18637/jss.v093.i14 

Martin, R. E., Sexton, C. M., & Gerlovich, J. A. (2001). Teaching science for all children. Allyn and Bacon. 

Maydeu-Olivares, A. (2013). Goodness-of-fit assessment of item response theory models. Measurement, 11(3), 

71-101. 

Mislevy, R. J. (2019). Advances in measurement and cognition. The ANNALS of the American Academy of 
Political and Social Science, 683(1), 164—182. https://doi.org/10.1177/0002716219843816 

OECD.(2014).PISA 2012 results: Creative problem solving: Students’ skills in tackling real-life problems 
(Volume V).PISA,OECD Publishing:https://dio.org/10.1787/9789264208070-en 

Qiao, X., & Jiao, H. (2018). Data mining techniques in analyzing process data: A didactic. Frontiers in 
Psychology, 9, 2231. https://doi.org/10.3389/fpsyg.2018.0223 1 

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2).461-464. 
https://doi.org/10.1214/aos/1176344136 

Sclove, S. L. (1987). Application of model-selection criteria to some problems in multivariate analysis. 
Psychometrika, 52(3), 333—343. https://doi.org/10.1007/BF02294360 


13 


ChinaXiv 预 印 本 


Shi, Q., Ma, W., Robitzsch, A., Sorrel, M. A., & Man, K. (2021). Cognitively diagnostic analysis using the 
G-DINA model in R. Psych, 3(4), 812—835. https://doi.org/10.3390/psych3040052 

Sun, X., Li, J., & Fu, Z. (2018). Predicting students' reasoning ability and math grades using game log-file - 
Application of machine learning. Acta Psychologica Sinica, 50(7), 761—770. 
https://doi.org/10.3724/SP.J.1041.2018.00761 

DNE, $e "X, THUS. (2018). 利用 游戏 log-file 预测 学 生 推 理 能 力 和 数学 成 绩 一 一 机 器 学 习 的 应 用 . D 
HEFIR, 50(7), 761-770.] 

Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response 
theory. Journal of Educational Measurement, 20(4), 345—354. 
https://doi.org/10.1111/j.1745-3984.1983.tb00212.x 

Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis 
models. Psychological Methods, 11(3), 287—305. https://doi.org/10.1037/1082-989X.11.3.287 

van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items. 
Psychometrika, 72(3), 287—308. https://doi.org/10.1007/s11336-006-1478-z 

Wang, C., & Xu, G. (2015). A mixture hierarchical model for response times and response accuracy. British 
Journal of Mathematical and Statistical Psychology, 68(3), 456—477. https://doi.org/10.1111/bmsp.12054 

Xia, S., Zhan, P., Chan, K. K. H., & Wang, L. (2023). Assessing concept mapping competence using item 
expansion-based diagnostic classification analysis. Journal of Research in Science Teaching. Advance 
online publication. https://doi.org/10.1002/tea.21897 

Xiao, Y., & Liu, H. (2023). A state response measurement model for problem-solving process data. Behavior 
Research Methods, 56(1), 258—277. https://doi.org/10.3758/s13428-022-02042-9 

Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times. British 
Journal of Mathematical and Statistical Psychology, 71(2), 262—286. https://doi.org/10.1111/bmsp.12114 

Zhan, P., & Qiao, X. (2022). Diagnostic classification analysis of problem-solving competence using process 
data: An item expansion method. Psychometrika, 87(4), 1529-1547. 
https://doi.org/10.1007/s11336-022-09855-9 


Key Action Encoding Incorporating Misconceptions and Its Application in Diagnostic 
Classification Analysis of Process Data 
Fangfang Gao Qipeng Chen Peida Zhan 
(School of Psychology, Zhejiang Normal University) 
Abstract 
Process data encompasses the human-computer interaction data captured in computer-based learning and 
assessment systems, reflecting participants’ problem-solving processes. Among various types of process data, 
action sequences stand out as a quintessential type, delineating participants’ step-by-step problem-solving 
processes. However, the non-standardized format of action sequences, characterized by varying data lengths 
among participants, presents challenges for the direct application of traditional psychometric models like 
diagnostic classification models (DCM). Extending psychometric models applicable to standardized structured 
data to process data analysis often necessitates key-action encoding — determining if each participant's data 
contains essential problem-solving actions and encoding them (e.g., “1” for "contains" and “0” for "does not 
contain"). Zhan and Qiao (2022) proposed a key-action encoding method facilitating the application of DCM 
to process data analysis for identifying participants’ mastery of problem-solving skills. Nevertheless, their 


approach overlooks the adverse impact of misconceptions on problem-solving. To this end, this study 
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introduces a key-action encoding approach incorporating misconceptions and explores its utility in diagnostic 
classification analysis of process data. This new encoding method integrates both problem-solving skills and 
misconceptions, extending Zhan and Qiao's (2022) approach. 

An illustrative example is provided to compare the performance of the proposed encoding approach with 
Zhan and Qiao's (2022) approach using a real-world interactive assessment item, "Tickets," from PISA 2012. 
For the proposed approach, eight attributes (four problem-solving skills and four misconceptions) and 28 
phantom items (i.e., key actions) were defined based on the scoring rule and assessment framework of the 
interactive assessment item. In contrast, Zhan and Qiao's approach defined four attributes (problem-solving 
skills) and 10 phantom items. Four DCMs — DINA, DINO, ACDM, and GDINA models — were employed for 
data analysis. The relative fit metrics for model-data comparison were selected from AIC, BIC, CAIC, and 
SABIC. Additionally, a chi-square test was employed to evaluate whether there existed a significant difference 
in the fit to the data between GDINA and each of the constrained models. For assessing absolute fit between 
the model and the data, the SRMSR metric was utilized. Moreover, item quality was evaluated using the item 
differentiation index (IDI), while classification reliability was determined by calculating the classification 
accuracy index. 

The findings reveal that: (1) considering both problem-solving skills and misconceptions enables more 
nuanced participant classification, facilitating identification of specific factors influencing problem-solving 
success and failure and offering targeted remedial suggestions for personalized instruction; (2) the introduction 
of misconceptions slightly enhances diagnostic classification reliability; (3) a moderate-to-high negative 
correlation exists between participants' mastery of misconceptions and raw scores, indicating misconceptions 
diminish students’ overall problem-solving performance. 

In summary, this study proposes a key-action encoding approach incorporating misconceptions and 
explores its application in diagnostic classification analysis of process data, specifically action sequences. The 
proposed approach aids researchers in pinpointing specific factors influencing problem-solving outcomes and 
provides methodological support for targeted interventions. To enhance participants’ problem-solving 
performance, beyond improving their skills, addressing misconceptions' adverse effects merits consideration. 


Keywords cognitive diagnosis; process data; problem solving; misconception; action sequence 
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S1. 过 程 数据 预 处 理 
S1.1. 过 程 数 据 整 理 

为 便于 研究 ,我 们 依据 如 下 步骤 对 原始 log-file 数据 进行 预 处 理 。 以 图 S1 为 例 , 首先 , 由 于 event_value 
列 为 后 四 列 的 汇总 Aetwork、fare_ type. ticket type 和 number trips)， 所 以 删除 后 四 列 数据 ; 其次， 将 前 
三 列 (cnt、schoolid 和 StIDStd) 合 并 至 最 后 一 列 ， 并 命名 为 compounds id; 最后， 根据 compounds id, 
对 所 有 被 试 排序 (字母 由 前 到 后 ， 数 字 由 小 到 大 )， 形 成 初始 过 程 数据 。 


cnt ,Schoolid ,StIDStd event time event number event value network fare type ticket type number trips 
AUS 0000032 00618 START ITEM 0. 1000 1. 00 NULL NULL NULL NULL NULL 
AUS „0000032 ,00618 ACER EVENT 50. 8000 2.00 country trains country trains NULL NULL 0 
AUS 0000032 00618 ACER EVENT 53. 0000 3.00 full fare country trains full fare NULL 0 
AUS “0000032 "00618 ACER_EVENT 58. 9000 4. 00 individual country trains full fare individual 0 
AUS "0000032 ‘00618 ACER_EVENT 66. 3000 5. 00 trip 2 country_trains full_fare individual [o 
Aus '0000032 ‘00618 ACER_EVENT 77. 2000 6. 00 Buy country_trains full_fare individual [2 
_AUS ‘0000032 “00618 — END ITEM 80. 9000 7. 00 NULL NULL NULL NULL NULL 
(a) 原始 log-file 数据 

cnt schoolid StIDStd event time event_number event_value 

Aus "0000032 00618 START_ITEM 0. 1000 1. 00 NULL 

AUS "0000032 00618 ACER_EVENT 50. 8000 2.00 country_trains 

AUS 0000032 00618 ACER EVENT 53. 0000 3.00 full fare 

AUS 0000032 00618 ACER EVENT 58. 9000 4. 00 individual 

AUS ‘0000032 400618 。 ACER EVENT 66. 3000 5. 00 trip 2 

AUS 0000032 00618 ACER EVENT 77. 2000 6. 00 Buy 

AUS 0000032 00618 END ITEM 80. 9000 7. 00 NULL 

(b) 删除 后 四 列 
cnt schoolid ,StIDStd event time event number event value compounds id 
AUS 0000032 ,00618 — START ITEM 0. 1000 1. 00 NULL AUS000003200618 


AUS 0000032 00618 ACER_EVENT 50. 8000 2.00 country trains  AUS000003200618 

AUS ,0000032 ,00618 ACER EVENT 53. 0000 3.00 full fare AUS000003200618 

AUS ,0000032 ,00618 ACER EVENT 58. 9000 4. 00 individual AUS000003200618 

AUS ,0000032 ,00618 ACER EVENT 66. 3000 5.00 trip 2 AUS000003200618 

AUS 0000032 ,00618 ACER EVENT 11. 2000 6. 00 Buy AUS000003200618 

AUS 0000032 00618 END ITEM 80. 9000 1. 00 NULL AUS000003200618 

(c) 前 三 列 合并 为 “compounds id" 

图 S1.1. PISA2012 TICKETS taskl(CP038Q02) 问 题解 决 测验 中 某 被 试 的 log-file 数据 预 处 理 过 程 


S1.2. 过 程 数 据 编码 


AUS "0000369 ‘06813 START_ITEM 0. 1000 1. 00 NULL AUS000036906813 
AUS 0000369 06813 ACER EVENT 37. 6000 2.00 F AUS000036906813 
AUS 0000369 06813 ACER EVENT 42. 6000 3. 00 B AUS000036906813 
AUS 0000369 06813 ACER EVENT 48. 1000 4. 00 Cancel AUS000036906813 
AUS "0000369 ‘06813 ACER_EVENT 51. 9000 5.00 A AUS000036906813 
AUS 0000369 06813 ACER EVENT 52. 6000 6.00 B AUS000036906813 
AUS ‘0000369 ‘06813 ACER_EVENT 55. 7000 7.00C AUS000036906813 
AUS 0000369 06813 ^ ACER EVENT 56. 9000 8.00D AUS000036906813 
AUS 0000369 06813  ACER_EVENT 19. 4000 9.00 D AUS000036906813 
AUS 0000369 06813 ACER EVENT 80. 5000 10. 00 Buy AUS000036906813 
AUS "0000369 "06813 END ITEM 84. 2000 11. 00 NULL AUS000036906813 
(a) 初始 过 程 数据 
AUS ‘0000369 ‘06813 ACER_EVENT 37. 6000 2. 00 F AUS000036906813 
AUS 0000369 06813 ACER_EVENT 42. 6000 3.00 B AUS000036906813 
AUS 0000369 06813  ACER_EVENT 51. 9000 5.00 A AUS000036906813 
AUS 0000369 06813 ACER EVENT 52. 6000 6. 00 B AUS000036906813 
AUS 0000369 06813 ^ ACER EVENT 55. 7000 1.00 C AUS000036906813 
AUS ‘0000369 06813 . ACER EVENT 56. 9000 8.00D AUS000036906813 
AUS 0000369 ‘06813 ACER EVENT 79. 4000 9.00 D AUS000036906813 


(b) 删除 起 始 状 态 (START_ ITEM”), E ESRZS(BUY?)fI “Cancel” 
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AUS ‘0000369 ‘06813 ACER_EVENT 37. 6000 2.00 F AUS000036906813 
AUS 0000369 06813 ACER_EVENT 42. 6000 3.00 B AUS000036906813 
AUS 0000369 06813 ACER EVENT 51. 9000 5. 00 A AUS000036906813 
AUS „0000369 ,06813 ACER EVENT 52. 6000 6.00 B AUS000036906813 
AUS 0000369 06813  ACER_EVENT 55. 7000 7.00 € AUS000036906813 
AUS 0000369 06813 ACER EVENT 56. 9000 8.00 D AUS000036906813 
(c). 删除 相 邻 的 重复 问题 状态 
图 S1.2. 过 程 数据 编码 示例 
S2. 补充 结果 
频率 
FGCD E 1.1096 
AGCI B 1.2196 
FBCI Hi 1.9596 
AGCD EH 2.4896 
FBCD EH 2.7996 
FGCI EH 2.9996 
ABCI mE 3.4196 
GCD mm 3.5096 
AGH mm 3.8196 
GCI mam 4.1296 
AGC EHE 5.1096 
BCI NEN 5.3396 
FGC mmm 5.9596 
FBC mmmm 6.3796 
ABH NENENS 8.23% 
Cl m 9.13% 
FGH m 9.9096 
AG m 9.95% 
GC mmm 10.74% 
FBH m 11.02% 
| m 11.22% 
GH mm 13.19% 
FG m— 16.4496 
FB m 18.605 
BH — (18.7296 
c -—— 25.06% 
H-——- 30.93% 
r————— 38.51% 
ABCD ————— 70 
CCD ————————————À! 60.6756 
CD -—— WHÉÁ——» 63.55% 
AC -————————» (64.8496 
D -———————————À 57.0496 
CC ————Á—————À (69.6496 
AB -—————sÁ"CÉC———— 71.2236 
c 77.18% 
A 77.81% 
B 84.21% 
0.00% 10.0096 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 
m 频率 
S2.1. 所 有 行动 序列 的 呈现 频率 (引入 迷 思 概念 的 关键 行动 编码 方式 ). 
HE S2.1. 基于 GDINA 模型 的 虚拟 题目 参数 估计 值 (引入 迷 思 概念 的 关键 行动 编码 方式 ). 
题目 猜测 (标准 误 ) 失误 (标准 误 ) 区 分 度 
A 0.0270 (0.0089) 0.0001 (0.2736) 0.9729 
B 0.0316 (0.1229) 0.0001 (0.2935) 0.9683 
C 0.0237 (0.0951) 0.0001 (0.4354) 0.9762 
D 0.0960 (0.0116) 0.0001 (1.1998) 0.9039 
F 0.1177 (0.0084) 0.0001 (0.3540) 0.8822 
G 0.0011 (0.0413) 0.0001 (0.2371) 0.9988 
H 0.0020 (0.0303) 0.0001 (0.1812) 0.9979 
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ABC 
ABH 
AGC 
BCI 
BCD 
FBC 
FBH 
FGC 
FGH 
ABCD 


题目 


表 S22. 


T 


> 


0.0230 (0.0029) 
0.0001 (0.0062) 
0.0068 (0.2562) 
0.0001 (0.3558) 
0.0205 (0.2252) 
0.0001 (0.4430) 
0.0001 (1.5468) 
0.0467 (0.1784) 
0.0001 (0.4816) 
0.0001 (0.1458) 
0.0001 (0.2621) 
0.0001 (0.1837) 
0.0001 (0.3344) 
0.0001 (0.3095) 
0.0001 (0.3453) 
0.0001 (0.3453) 
0.0001 (0.4907) 
0.0450 (0.3163) 
0.0001 (0.3655) 
0.0001 (0.2271) 
0.0001 (0.1837) 


于 GDINA 模型 的 虚拟 题 


UU (ERER) 


0.0001 (0.1793) 
0.0008 (0.0044) 
0.3135 (0.0844) 
0.0016 (0.0014) 
0.1220 (0.0555) 
0.0001 (0.0872) 
0.0001 (0.5725) 
0.0551 (0.0270) 
0.0372 (0.0224) 
0.3067 (0.1118) 
0.0916 (0.0319) 
0.0016 (0.0012) 
0.3495 (0.0979) 
0.5440 (0.1245) 
0.1168 (0.0342) 
0.0001 (0.0185) 
0.4071 (0.0485) 
0.0850 (0.0329) 
0.1326 (0.0616) 
0.1071 (0.0387) 
0.0005 (0.0008) 


0.9769 
0.9991 
0.6797 
0.9983 
0.8575 
0.9998 
0.9998 
0.8982 
0.9627 
0.6932 
0.9083 
0.9983 
0.6504 
0.4559 
0.8831 
0.9998 
0.5928 
0.8700 
0.8673 
0.8928 
0.9994 


参数 估计 值 ( 仅 包 含 问 题解 决 技 能 的 关键 行动 编码 方式 ). 


失误 (标准 误 ) 


区 分 度 


3 Z wo 


ABC 
BCD 
ABCD 


0.0491 (0.0241) 
0.0318 (0.0164) 
0.0580 (0.0174) 
0.0975 (0.0104) 
0.0001 (0.3238) 
0.0001 (0.4284) 
0.0001 (0.6648) 
0.0001 (0.3064) 
0.0001 (0.1509) 
0.0001 (0.3064) 
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0.0001 (0.0926) 
0.0001 (0.5879) 
0.0001 (0.2547) 
0.0001 (0.3744) 
0.0001 (0.0432) 
0.0001 (0.1085) 
0.0001 (0.0336) 
0.0011 (0.0235) 
0.0001 (1.2563) 
0.0001 (0.4702) 


0.9508 
0.9681 
0.9419 
0.9024 
0.9998 
0.9998 
0.9998 
0.9988 
0.9998 
0.9998 
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al 


a2 


a3 


a4 


score 


x 08 -06 -04 -02 0 02 04 06 08 1 


S222. 属性 之 间 以 及 属性 与 原始 得 分 之 间 的 相关 ( 仅 包 含 问题 解决 技能 的 关键 行动 编码 方式 ). 


表 S23. 两 种 关键 行动 编码 方式 下 被 试 诊断 分 类 结果 对 应 表 ( 仅 呈现 被 试 量 大 于 10 的 属性 模式 ). 


作答 结果 得 分 仅 包含 问题 解决 技能 同时 包含 问题 解决 技能 和 迷 思 概念 被 试 量 
1 1111 11110000 1681 
11110100 78 

11110110 74 

11111000 63 

11111010 56 

11110010 43 

11111100 16 

11111101 13 

11111110 12 

1 1110 11100001 40 
0 0000 00001110 222 
0 0100 01001010 269 
01001110 13 

0 1100 11000010 158 
11000110 26 

11001010 16 

0 1110 11100000 77 
11100001 45 

0 0010 00101101 60 
00101100 39 

0 0110 01101001 50 
01101000 32 

0 1000 10000110 76 
0 0111 01111000 63 
0 1011 10110100 57 
0 1010 10100101 24 
10100100 21 

0 0011 00111100 23 


S3. 仅 包含 问题 解决 技能 (不 包含 迷 思 概念 ) 的 关键 行动 编码 

表 S3.1 呈现 了 该 任务 下 从 一 元 到 四 元 字 节 片段 序列 对 应 的 行动 序列 。 此 时 ， 可 以 将 被 试 所 呈现 的 
任 一 行动 序列 视 为 表 中 字 节 片段 (或 组 合 )。 表 S3.2 呈现 了 包含 4 个 问题 解决 技能 和 10 道 虚拟 题目 的 Q 
和 矩阵 (10 道 虚拟 题目 对 应 的 行动 序列 的 呈现 频率 均 处 于 5%~95% 之 间 ， 未 删 题 )。 
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表 S3.1. PISA2012 问题 


解决 测验 TICKETS (CP038Q02)4E 4-4 


P N-gram 字 节 片段 序列 (不 含 迷 思 概念 ). 


N-gram 数量 字 节 片段 序列 
Uni-gram 4 A. B. C. D 
Bi-gram 3 AB. BC. CD 
Tri-gram 2 ABC. BCD 
Quad-gram 1 ABCD 


H 


表 S3.2. PISA2012 问题 解决 测验 TICKETS (CP038Q02) 任 务 的 Q HEERE KER). 
题 号 题 问题 解决 技能 
al a2 a3 a4 
1 A 1 0 0 0 
2 B 0 1 0 0 
3 C 0 0 1 0 
4 D 0 0 0 1 
5 AB 1 1 0 0 
6 BC 0 1 1 0 
7 CD 0 0 1 1 
8 ABC 1 1 1 0 
9 BCD 0 1 1. 1 
10 ABCD 1 1 1 1| 
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